查看原文
其他

基于『成交数据』的股票联动研究

全网Quant都在看 量化投资与机器学习 2023-03-06


量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,曾荣获AMMA优秀品牌力、优秀洞察力大奖,连续4年被腾讯云+社区评选为“年度最佳作者”。


标题:Co-trading networks for modeling dynamic interdependency structures and estimating high-dimensional covariances in US equity markets
作者:Yutong Lu,Gesine Reinert,Mihai Cucuringu

受市场各参与方及资金流动等相互作用,不同股票之间往往会表现出价格联动或共振的现象。随着市场高频交易参与度的增加,这种共振的现象愈发明显。本文中,作者使用高频的成交数据来研究股票间共同成交(文中称为co-trading,即一只股票发生成交的极短时间内,另一只股票也发生成交)的现象,构建了co-trading network来对股票市场复杂的联动进行建模。
通过对co-trading network的分析与建模,作者主要有以下发现:
  • 对股票进行基于co-trading network的聚类,聚类的结果与传统行业分类有较高重合度。但同时也包含了传统行业分类所不具有的信息,即同一聚类中有很多不属于同一行业的股票。
  • 在2017-2019年期间,日度co-trading network中,不同行业的股票更加频繁的被聚在一起,说明不同行业股票之间的联动在逐步增加。
  • 通过对co-trading network时序数据的分析,可以将市场清晰的分为三个阶段(regime)。
  • Co-trading矩阵与收益率协方差矩阵存在显著的关联性,说明共同成交能够显著解释股价的联动。
  • 基于co-trading network改进的协方差矩阵,应用在组合优化中能够显著提高组合的夏普比率。

如何使用高频数据来度量两个股票共同成交?

首先解释下什么是共同成交(co-trading),如上图所示,不同的点表示不同时间产生的成交。以成交 为例,把当前成交单前后 时间内(如500毫秒)发生的成交作为共同成交。那么图中 的共同成交。而 因为离 发生的时间超过了 ,所以不是。

我们可以统计两个股票在一段时间内发生共同成交的笔数,从而衡量它们共同成交的程度(co-trading score),文中给出以下公式:
看着有些复杂,实则很好理解。假设有两个股票i和j,我们使用它们最近一个交易日的所有成交单数据,那么:
  • 分子的第一项表示股票i的所有成交单中,是股票j所有成交单的共同成交单的笔数。
  • 分子的第二项表示股票j的所有成交单中,是股票i所有成交单的共同成交单的笔数。
  • 分母表示股票i与股票j当日成交单笔数的开方乘积。
同样以上图为例,假设蓝色点表示股票i,红色点表示股票j,那么它们的co-trading score计算如下:

1、站在股票i的角度, 属于 的共同成交, 不是股票i任何成交单的共同成交;分子第一项为1。

2、站在股票j的角度, 属于 的共同成交, 不是股票j任何成交单的共同成交;分子第二项为1。

3、分母为 

如何构建共同成交网络(co-trading network)?
对股票池中,任意两个股票按找上述的方法计算co-trading score,就可以构建co-trading network。我们用co-trading score构成的矩阵表示这个网络,该矩阵有以下特点:
  • 所有元素的值都大于0,
  • 且是一个对称的矩阵。
  • 计算出日度的矩阵,更长时间,如5日的矩阵可以用过去5个日度矩阵的均值表示。
本文使用2017年至2019年,标普500成分股的成交数据进行实证分析,其中计算co-trading的时间间隔delta选用500毫秒。如下图,为使用全部样本数据构建的co-trading network。
以下是该网络中,使用eigenvector centrality作为影响力度量指标,排名前十的公司:
如果把所有股票的影响力(特征向量中心度,eigenvector centrality)根据GICS一级行业分类进行加总,我们可以看出信息技术、金融和通信服务行业的影响力最大:
如果把股票之间的co-trading score按照行业计算均值,可以构建如下行业间的关联图,其中变的宽度表示行业间共同成交的强弱。例如房地产和金融行业的共同成交的程度比其与其他行业更加明显。

对Co-trading network进行聚类分析

使用普聚类方法对co-trading network进行聚类分析,其中聚类簇群的数量是可以自定义的。
如下图,分别使用2017至2019年每年1月份的数据,构建了三个co-trading network,并在每个网络中选取了权重排名前1%的边。可以发现,在过去的3年中,行业间的co-trading越来越多。而如金融,地产及能源行业,它们行业内的co-trading反而越来越弱。这说明,co-trading随着时间的变化还是非常大的,对co-trading network进行时序的分析也尤为重要。
如果把每天的co-trading network使用上述方法取类为20个簇群,我们可以计算过取3年中任意两天聚类结果的相似度(对于两种聚类的相似度,作者参考Hubert和Arabie 1985,使用Adjusted Rand Index),并绘制以下热度图。可以看出,沿着热度图左上至右下方向夜色越来越深,而且按颜色深浅可以明显分为三个区域,说明市场存在3个不同的regime。
对以上热力图进行普聚类,过去三年,每天所属簇群的结果如下:

Co-trading network与收益率协方差矩阵的关系

对股票收益率协方差矩阵与co-trading network(下式C)及股票行业分类(下式S,作为控制变量)进行回归分析:
使用quadratic assignment procedure (QAP)方法进行回归,结果如下,可以看出co-trading network与协方差矩阵之间的关系显著为正。

co-trading network是否能提高组合表现?

对于一个线性因子模型:
协方差可以用以下等式表示:
参考Ait-Sahalia和Xiu (2017),上式右边两项可以由特征值及特征向量进行估计:
其中第二项表示股票的特质收益矩阵,参考Ait-Sahalia和Xiu (2017),为了提高协方差估计的稳健性,可以对特质收益矩阵进行过滤,仅保留在某一分类方法下属于同一聚类的元素值。作者分别使用了基于GICS的固定分类及基于co-trading network的时变聚类法。使用基于前一交易日5分钟数据计算的协方差矩阵作为对于下一交易日的协方差估计,并测试全局最小方差组合的收益。以下是两个分类方法的对比,可以明显看出基于co-trading聚类作为分类的方法明显优于GICS,策略的表现更加稳健,夏普比率更高:
参考文献
Lu, Yutong and Reinert, Gesine and Cucuringu, Mihai, Co-trading networks for modeling dynamic interdependency structures and estimating high-dimensional covariances in US equity markets (February 18, 2023).
Yacine Ait-Sahalia and Dacheng Xiu. "Using principal component analysis to estimate a high dimensional factor model with high-frequency data". In: Journal of Econometrics201.2 (2017), pp. 384–399.
David Dekker, David Krackhardt, and Tom AB Snijders. "Sensitivity of MRQAP tests to collinearity and autocorrelation conditions". In: Psychometrika 72.4 (2007), pp. 563–581.

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存